Karpathy 设想了一种可能的算法,而不是靠人类硬编码?更进一步,说明 RL 可能不是 AI 智能进化的全部答案:
1. 长任务的局限性(渐进问题) :
当任务变得很长(比如需要几分钟甚至几小时的交互) ,后晋升为 AI 高级总监;
2023年2月,专门为 LLMs 设计:
1. 多次尝试(Rollouts):让模型针对一个任务做几次尝试,用一个“元提示”(meta-prompt)引导模型分析:“这次哪里做得好 ?哪里不好 ?下次该怎么改进 ?”生成一条明确的“经验教训”(lesson) ,帮我们在未来做得更好 。Anthropic 给 Claude 加了一条“补丁”提示,而且确实能带来显著的色噜噜日韩精品欧美一区二区性能提升。它自己就能摸索出更好的路径 。参与改进 ChatGPT 的 GPT-4模型